Inkrementelle Koreferenzanalyse für das Deutsche
نویسندگان
چکیده
Es wird ein inkrementeller Ansatz zur Koreferenzanalyse deutscher Texte vorgestellt. Wir zeigen anhand einer breiten empirischen Untersuchung, dass ein inkrementelles Verfahren einem nichtinkrementellen überlegen ist und dass jeweils die Verwendung von mehreren Klassifizierern bessere Resultate ergibt als die Verwendung von nur einem. Zudem definieren wir ein einfaches Salienzmass, dass annähernd so gute Ergebnisse ergibt wie ein ausgefeiltes, auf maschinellem Lernen basiertes Verfahren. Die Vorverarbeitung erfolgt ausschliesslich durch reale Komponenten, es wird nicht wie so oft auf perfekte Daten (z.B. Baumbank statt Parser) zurückgegriffen. Entsprechend tief sind die empirischen Ergebnisse. Der Ansatz operiert mit harten linguistischen Filtern, wodurch die Menge der Antezedenskandidaten klein gehalten wird. Die Evaluierung erfolgt anhand der Koreferenzannotationen der TüBa-D/Z. Posted at the Zurich Open Repository and Archive, University of Zurich ZORA URL: https://doi.org/10.5167/uzh-39611 Accepted Version Originally published at: Klenner, M; Tuggener, D; Fahrni, A (2010). Inkrementelle Koreferenzanalyse für das Deutsche. In: KONVENS 2010, Saarbrücken, 6 September 2010 8 September 2010, 37-46. Inkrementelle Koreferenzanalyse für das Deutsche Manfred Klenner Institut für Computerlinguistik Universität Zürich Schweiz [email protected] Don Tuggener Institut für Computerlinguistik Universität Zürich Schweiz [email protected] Angela Fahrni HITS gGmbH Heidelberg Deutschland [email protected]
منابع مشابه
Integration von inkrementeller Prosodie- und Spracherkennung
Sprachdialogsysteme profitieren von inkrementeller Verarbeitung. Inkrementelle Sprachdialogsysteme (bei denen die Verarbeitung auf allen Ebenen schon während der Eingabe beginnt) führen schneller zum Ziel und werden von Nutzern besser bewertet als nichtinkrementelle Sprachdialogsysteme (bei denen die Spracherkennung und darauffolgende Module erst die Verarbeitung beginnen wenn die Eingabe abges...
متن کاملInkrementelle ontologiebasierte Informationsintegration für die translationale medizinische Forschung
Für die translationale medizinische Forschung werden sehr viele, sehr komplexe Daten aus heterogenen und verteilten Quellen benötigt. Bei der Integration dieser Datenund Wissensquellen bestehen besondere Anforderungen, da einerseits einer hoch dynamischen und häufig veränderten Domäne und andererseits regulatorischen Aspekten, wie dem Datenschutz oder Zulassungsbestimmungen Rechnung getragen we...
متن کاملErweiterung des V-Modell XT - Eine Projektdurchführungsstrategie für die modellgetriebene Software-Entwicklung mit der MDA
Das neue V-Modell® XT [VXT05] bietet ein Vorgehensmodell zur Planung und Durchführung von Systemprojekten des Bundes und der Privatwirtschaft. Es stellt für unterschiedliche Projekttypen speziell angepasste Projektdurchführungsstrategien zur Verfügung, beispielsweise für inkrementelle, komponentenbasierte oder agile Projekte. Das V-Modell XT legt sich allerdings nicht bzgl. der zu verwendenden ...
متن کاملModellgetriebene Transformation von Legacy Business-Software
In zahlreichen Unternehmen befinden sich BusinessSoftwaresysteme im Einsatz, deren Programmarchitektur und Softwareinfrastrukur den heutigen Anforderungen, die an die Sicherheit, Leistungsfähigkeit, Adaptierbarkeit sowie an die Kosten und Verfügbarkeit moderner Zielplattformen gestellt werden, oftmals nicht mehr gewachsen sind. Das Forschungsprojekt TransBS beschäftigt sich mit der Realisierung...
متن کاملPOS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch
1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden...
متن کامل